import pandas as pd
import numpy as np
import matplotlib as plt

df=pd.read_csv('boston.csv',index_col=0)
#df.head(3)
#df.shape
#df.info()
#df.describe()
#df.columns 查看列命名
#df['列名']获取对应列数据
col=df.columns.values
df.columns=[x.strip() for x in col] #strip一次只能处理一个数据，去除前后空格
#df.dumplicated()查看是否有重复值,只有当两个数据所有特征都相等时才为重复，支持first，last两种模式
#df[df.dumplicated()]直接获取重复的数据
#df.dumplicated().sum()查看重复了多少个
#df.drop_duplicates(inplace=True)去除重复值
#df.describe().T查看数据类型的数据特征
sta=(df['ZN']-df['ZN'].mean())/df['ZN'].std()
#df[sta.abs()>3] 超过3倍标准差的异常值
#df[df.ZN<df.CHAS] 用不同列特征的大小关系判断异常值
delindex=pd.concat(df[sta.abs()>3],df[df.ZN<df.CHAS]).index #要删除的行标签

